Surapprentissage

La ligne verte représente un modèle surappris et la ligne noire représente un modèle régulier. La ligne verte classifie trop parfaitement les données d'entrainement, elle généralise mal et donnera de mauvaises prévisions futures avec de nouvelles données. Le modèle vert est donc finalement moins bon que le noir.

En statistique, le surapprentissage, ou surajustement ou encore surinterprétation, est une analyse statistique qui correspond trop précisément à une collection particulière d'un ensemble de données. Ainsi, cette analyse peut ne pas correspondre à des données supplémentaires ou ne pas prévoir de manière fiable les observations futures. Un modèle surajusté est un modèle statistique qui contient plus de paramètres que ne peuvent le justifier les données[1].

  1. « Généralisation : le risque de surapprentissage », sur developers.google.com, dernière mise à jour : mars 27, 2018 (consulté le ).

From Wikipedia, the free encyclopedia · View on Wikipedia

Developed by razib.in